Les violences policières aux États-Unis

Mariette DUPUY & Marie-Mathilde GARCIA

I- Introduction

De 2000 à 2020, 28 621 personnes ont été tuées par la police aux États-Unis. Il s'avère que 53% des victimes étaient des personnes de couleur : "Black", "Latino", "Native American", "Asian", "Pacific Islander", et "Middle Eastern" et cela malgré le fait que ces groupes minoritaires représentent de 25% de la population totale des États-Unis, selon le Census Bureau.

Pendant cette année 2020, nous avons beaucoup entendu parler des violences policières aux États-Unis et notamment des manifestations du mouvement "Black Lives Matter".

Il faut savoir qu'aux États-Unis les statistiques sur les éthnies et/ou la couleur de peau des populations sont possibles, nous trouvons en effet dans leurs bases de données la notion de "Race". Cette notion n'est pas traduisible en français, nous garderons ce terme dans notre étude.

Notre problématique est alors de comprendre dans quels endroits des États-Unis les rencontres policières mortelles sont susceptibles de se produire lorsque la victime était une personne de couleur.

Nous commençons par des statistiques descriptives des différentes bases de données que nous avons à disposition. Nous avons ensuite construit un modèle de classification qui permet d'identifier les endroits où des rencontres mortelles sont susceptibles de se produire en fonction des caractéristiques socio-économiques des communautés dans lesquelles elles se produisent.

I - Statistiques descriptives

Dans cette partie nous allons commencer par une description des jeux de données, puis nous en ferons une analyse.

A. Description des jeux de données

Pour cette partie, nous avons croisé différents types de bases de données. Nous avons utilisé plusieurs bases de données présentant différentes informations sur les violences policières comme par exemple la date de l'incident, le lieu, la "race" ou si la victime était armée. Une partie de ces données viennent du GitHub du Washington Post (https://github.com/washingtonpost/data-police-shootings) et les autres du site : https://mappingpoliceviolence.org/qui recense de nombreuses informations sur les victimes mortes en raison de violences policières pour tous les états d'Amérique du Nord.

Nous avons ensuite utilisé les données mise à disposition par le Census Bureau (https://data.census.gov/cedsci/) qui est une administration publique américaine qui recense de nombreux indicateurs socio-économiques comme par exemple le niveau de pauvreté, le niveau d'éducation ou l'accès à la technologie.

B. Analyse des données

Nous allons maintenant analyser ces données, à l'aide de graphiques et de cartes intéractives.

a. Graphiques sur les violences policières

Lorsque nous regardons ce graphique où les "race" sont considérées indépendamment, nous observons que les minorités qui comptent le plus de victimes sont les "Afro-Américain/Noir" et les "Hispanique/Latino". Nous observons également qu'entre 2008 et 2013 le nombre de personnes tuées par la police a considérablement augmenté (pour les "Race" en bleu foncé, vert et violet). En 2020 le nombre de victimes est beaucoup plus bas, ce qui pourrait s'expliquer la pandémie mondiale.

Statistiques sur les personnes qui portent des armes lors des altercations fatales avec la police

Nous avons également dans nos bases de données l'information si la victime était armée, non armée ou armée avec une fausse arme. Nous voulons voir s'il peut y avoir la présence d'un biais, si par exemple une personne d'un groupe minoritaire est plus susc eptible de se faire tuer qu'il soit armé ou non.

Nous pouvons tout d'abord noter que la majorité des rencontres policières mortelles a impliqué une arme à feu. Nous pouvons alors nous demander si l'accès aux armes à feu par la population est un problème.

Sur le graphique ci-dessous nous pouvons observer la proportion de victimes armées, non armées ou armées avec une fausse arme par "Race". Nous pouvons remarquer que lorsque les personnes sont non-armées, la proportion de victimes est plus élevée pour les groupes minoritaires. Il semblerait alors qu'il y ait un biais car lorsque la victime est armée, ce n'est pas les groupes minoritaires dont la proportion de morts est la plus élevée. Nous voyons également qu'un "Européen-Américain/Blanc" portant une fausse arme est plus susceptible d'être abattu qu'une personne issue de groupe minoritaire en portant une. Bien que la première partie de nos interprétations semblent indiquer un préjugé racial, la deuxième partie semble indiquer une erreur de jugement due à une peur qui n'est pas nécessairement raciale.

En étudiant cet aspect des violences policières, nous ne pouvons pas faire de réelles conclusions sur un lien entre les violences policières et la "race". Nous allons maintenant essayer d'en trouver à l'aide d'indicateurs socio-économiques.

b. Analyse socio-économique par état

Pour étudier ces indicateurs socio-économiques nous allons utiliser des cartes intéractives des États-Unis. Nous allons chercher à observer si la nombre de personnes tuées par la police par état peut avoir un lien avec des indicateurs socio-économiques. Nous allons regarder la pourcentage de peronnes issues de groupes minoritaires, le niveau d'éducation, ainsi que le niveau de pauvreté.

Carte du nombre de personnes tuées par la police par million d'habitants par état
Make this Notebook Trusted to load map: File -> Trust Notebook

En observant cette carte, nous voyons que pour un million d'habitants les états les plus meurtriers sont New Mexico, Oklahoma et l'Alaska et les moins meutriers sont les états Massachusetts, Michigan et New-York.

Concernant les états ayant le plus de personnes tuées par la police, nous nous intéressons à la "race" des victimes. Nous observons qu'à New Mexico le nombre de victimes est plus élevé pour les groupes minoritaires (163 contre 91), mais sachant qu'environ 50% de la population de cet état est d'origine hispanique. Pour l'Oklahoma, le nombre de personnes tuées par la police est plus élevé pour les "Européen-Américain/Blanc"(309 contre 194), mais sachant qu'environ 74% de la population de cet état est "Européen-Américain/Blanc". Puis pour l'Alaska, le nombre de victimes est quasiment identique pour chaque "Race" (36 et 33 morts), mais sachant qu'environ 55% de la population de cet état est "Européen-Américain/Blanc".

Carte de la répartition du pourcentage de personnes appartenant à des groupes minoritaires par état
Make this Notebook Trusted to load map: File -> Trust Notebook

Sur cette carte nous pouvons voir que les états avec le pourcentage de personnes issues de groupes minoritaires le moins élevé sont les états du Nord. New Mexico et la Californie sont les états avec le plus personnes appartenant à des groupes minoritaires (plus de 58% de la population).

Carte du niveau d'éducation par million d'habitants par état

Le niveau d'éducation que nous allons étudier ici est le nombre de personnes par million d'habitants qui ont au moins une Licence.

Make this Notebook Trusted to load map: File -> Trust Notebook

Nous retrouvons New Mexico dans les états avec un niveau d'éducation pas très élevé. Les états avec le niveau d'éducation le plus élevé sont l'Utah, North Dakota, Vermont et Rhode Island.

Carte du niveau de pauvreté par état

Pour cette carte, nous allons regarder le pourcentage de famille en dessous du niveau de pauvreté par état.

Make this Notebook Trusted to load map: File -> Trust Notebook

Nous retrouvons New Mexico dans les états avec un niveau de pauvreté assez élevé, ce qui semble cohérent puisque cet état a également un niveau d'éducation assez bas. Aux États-Unis les études étant payantes, toutes les familles ne peuvent pas offrir une éducation à leurs enfants.

Dans cette première partie sur les statistiques descriptives de nos jeux de données, nous avons pu appréhender une première vision sur les violences policières. Tout d'abord nous avons analyser certaines caractéristiques des victimes comme notamment leur "race". Nous avons voulu également commencer à regarder certains indicateurs socio-économiques pour essayer d'établir des premières intuitions sur les contextes des endroits où il y a des rencontres policières mortelles.

Le port d'armes de la part des victimes ne nous a pas donné de résultats fiables, nous n'allons pas prendre cet aspect en compte dans notre prochaine partie. En effet, dans la prochaine partie nous allons faire de classification, notre but sera de déterminer quels indicateurs socio-économiques influent sur la probabilité d'une zone à voir survenir des violences policières sur une personne de couleur.

III - Problème de classification

Nous allons maintenant passer à la partie prédiction et mise en place du problème de classification.

Notre but est de construire un modèle de classification qui permet d'identifier les endroits (ZIP code) où des rencontres mortelles sont susceptibles de se produire pour les personnes de couleur en fonction des caractéristiques socio-économiques. des communautés dans lesquelles elles se produisent. Aux Etats-Unis le ZIP (Zone Improvement Plan) code est l'équivalent américain du code postal. Ces ZIP codes ne correspondent pas forcément à des villes mais à des zones géographiques comme affiché sur la carte suivante.

zip code

A. Description des jeux de données

Nous avons récupéré la première base de données sur le site : https://mappingpoliceviolence.org/ qui recense de nombreuses informations sur les victimes mortes en raison de violences policières pour tous les états d'Amérique du Nord.

Cette base de données contient la colonne "poc" qui détermine le nombre de personne de couleur tuées par la police pour chacun des différents ZIP code et la colonne "deadly_encounter" qui compte le nombre total de victimes tuées par la police par ZIP code.

Nous avons ensuite utilisé la base de données qui rassemblait les informations socio-économiques du Census Bureau (https://data.census.gov/cedsci/). Nous avons par exemple le niveau d'éducation, le niveau de pauvreté, l'accès à la technologie, le revenu, la "race", les personnes qui possèdent une assurance maladie, les personnes qui ont accès aux bons alimentaires ou encore le taux de chômage.

Nous ainsi pu joindre les deux bases de données grâce à la colonne du ZIP code.

Nous avons donc à notre disposition une importante base de données contenant 33 139 ZIP code et 45 variables socio-économiques décrivant les lieux associés aux différents zip code.

Comme la plupart des ZIP code provenant du Census Bureau n'ont pas connu de morts par violences policières leurs valeurs pour les colonnes "deadly_encouter" et "poc" étaient NaN, nous les avons remplacées par des 0.

Après traitement des valeurs manquantes il nous reste une base de données composée de 28 081 individus.

B. Création des variables explicatives et réponse

Nous avons donc créé une variable réponse binaire qui vaut 1 si dans la zone associée au ZIP code une personne de couleur a déjà été tuée par la police et 0 sinon.

Ci-dessous la base de données sur laquelle nous allons appliquer notre modèle de classification.

zip code tabulation area S0101_C01_001E S1903_C03_001E S1903_C03_003E S1903_C03_009E S1903_C03_010E DP05_0078PE DP05_0071PE DP05_0077PE DP02_0066PE ... S2802_C05_006E S2802_C05_012E S2802_C05_013E S2802_C07_001E S2802_C07_006E S2802_C07_012E S2802_C07_013E deadly_encounter poc bi_poc
0 43964 8642.0 42826.0 21429.0 0.001 43609.0 3.0 0.3 95.0 89.4 ... 0.0 22.2 7.9 15.4 37.1 0.0 15.0 0.0 0.0 0
1 28216 51116.0 48647.0 41987.0 42404.000 62815.0 63.9 8.0 23.5 88.8 ... 11.0 10.7 3.5 6.4 7.6 1.4 5.6 2.0 2.0 1
2 28277 71605.0 105885.0 90422.0 78375.000 105492.0 8.6 7.2 66.1 97.1 ... 3.8 2.4 1.2 1.2 1.6 3.3 1.2 0.0 0.0 0
3 28278 27286.0 90282.0 79940.0 78906.000 103136.0 30.1 10.5 46.8 93.8 ... 3.6 2.1 3.0 0.8 0.5 0.5 1.2 0.0 0.0 0
4 28303 29414.0 39896.0 34316.0 28250.000 46959.0 38.4 10.5 41.1 91.2 ... 10.6 11.1 7.8 7.2 7.9 5.1 7.3 2.0 1.0 1

5 rows × 51 columns

C. Problème des classes déséquilibrées

Identification des classes déséquilibrées

Le principal enjeu de notre travail de classification est que notre jeu de données contient des classes très déséquilibrées. Nous avons environ 25 000 localités dans lesquelles il n'y a jamais eu de morts dues aux violences policières et au contraire 2 500 où c'est le cas.

Dans ce cas il va falloir mettre en place une stratégie adaptée aux jeux de données contenant des classes déséquilibrées.

Ci-dessous le diagramme en barre mettant en avant ces classes déséquilibrées.

Il s'avère que 9 % de tous les codes postaux américains représentent l'ensemble des meurtres de personnes de couleur commis par la police entre 2013 et 2020. Nous voulons donc sélectionner le meilleur modèle en fonction de celui qui peut offrir le meilleur taux de vrais positifs pour la classe minoritaire même si la précision est faible, car par rapport au coût d'une vie humaine, que les économistes estiment à 10 millions de dollars et que la famille de cette personne considérerait comme inestimable. Le coût d'une identification d'un code postal comme ayant une rencontre mortelle alors que ce n'est pas le cas est bien moins important que le coût d'une fausse prédiction qu'un code postal n'a pas de rencontre mortelle alors qu'il en a une en réalité.

Ensembles train et test

Pour entraîner nos modèles nous avons découpé notre base de données en un ensemble d'entraînement et un ensemble de test.

Modèles de base sans considération des classes déséquilibrées

Nous avons tout d'abord fait tourner des modèles sans prendre en considération les classes déséquilibrées.

Il faut alors dans ce cas faire très attention à l'analyse que nous allons apporter. En effet, pour chacun des modèles nous allons avoir entre 85% et 95% de bonnes prédictions. Cependant ce chiffre n'est pas recevable puisque avec des classes si déséquilibrées les modèles vont classer toutes les données dans la classe majoritaire.

La valeur que nous devons regarder est "recall" : VP/(VP+FN) qui représente le taux de vrais positifs et la "precision" : VP/(VP+FP). Dans ce cas, sans considération des classes déséquilibrées, les taux de vrais positifs sont très mauvais pour la classe minoritaire (classe 1). Ce qui signifie que le modèle n'arrive pas bien à prédire cette classe : il ne retrouve pas les zones dans lesquelles la police a tué des personnes de couleur.

Training set:  0.9283742877492878
Test set:  0.9095602634858465
              precision    recall  f1-score   support

           0       0.93      0.97      0.95      5108
           1       0.50      0.25      0.34       509

    accuracy                           0.91      5617
   macro avg       0.72      0.61      0.64      5617
weighted avg       0.89      0.91      0.90      5617

Training set:  0.9196492165242165
Test set:  0.9189959052875201
              precision    recall  f1-score   support

           0       0.93      0.98      0.96      5108
           1       0.61      0.28      0.39       509

    accuracy                           0.92      5617
   macro avg       0.77      0.63      0.67      5617
weighted avg       0.90      0.92      0.91      5617

Training set:  1.0
Test set:  0.9225565248353214
              precision    recall  f1-score   support

           0       0.93      0.99      0.96      5108
           1       0.68      0.28      0.39       509

    accuracy                           0.92      5617
   macro avg       0.80      0.63      0.68      5617
weighted avg       0.91      0.92      0.91      5617

Training set:  0.92619301994302
Test set:  0.9209542460388107
              precision    recall  f1-score   support

           0       0.93      0.99      0.96      5108
           1       0.69      0.23      0.35       509

    accuracy                           0.92      5617
   macro avg       0.81      0.61      0.65      5617
weighted avg       0.91      0.92      0.90      5617

Considération des classes déséquilibrées : ADASYN

Pour prendre en compte le problème des classes déséquilibrées, une des techniques qui peut être utilisée consiste à rééquilibrer notre jeu de données. Soit en faisant de l’undersampling, en enlevant des données de la classe majoritaire, soit en faisant de l’oversampling, en rajoutant des nouvelles données dans la classe minoritaire.

Dans le cas de l'oversampling il y a deux méthodes :

  • Collecter plus de données (en faisant plus de mesures ou en prenant un échantillon des années précédentes par exemple) ;
  • Synthétisez de nouvelles données à partir des observations existantes (en dupliquant vos données ou en utilisant des algorithmes comme SMOTE ou ADASYN).

Nous avons fait le choix d'utiliser l'algorithme ADASYN (ADAptive SYNthetic) pour cette problématique.

Ce que fait SMOTE (Synthetic Minority Over-Sampling Technique) est simple. D'abord, il trouve les n plus proches voisins de la classe minoritaire pour chacun des échantillons de la classe. Ensuite, il trace une ligne entre les voisins et génère des points aléatoires sur les lignes.

ADASYN est une version améliorée de SMOTE. Ce qu'il fait est identique à SMOTE avec une amélioration mineure. Après avoir créé ces échantillons, il ajoute de petites valeurs aléatoires aux points, ce qui le rend plus réaliste. En d'autres termes, au lieu que tous les échantillons soient corrélés linéairement au parent, ils présentent un peu plus de variance, c'est-à-dire qu'ils sont un peu dispersés.

Nous allons créer des nouveaux ensembles d'entraînement avec ADASYN puis appliquer les mêmes modèles que précédemment.

KNN using ADASYN(random_state=44) :
Training set:  0.7682933615269044
Validation set:  0.7124415757845538
              precision    recall  f1-score   support

           0       0.98      0.70      0.82      4086
           1       0.22      0.86      0.35       407

    accuracy                           0.71      4493
   macro avg       0.60      0.78      0.58      4493
weighted avg       0.91      0.71      0.77      4493

 
Logistic Reg using ADASYN(random_state=44) :
Training set:  0.8122530743976406
Validation set:  0.799910972624082
              precision    recall  f1-score   support

           0       0.98      0.79      0.88      4086
           1       0.29      0.85      0.44       407

    accuracy                           0.80      4493
   macro avg       0.64      0.82      0.66      4493
weighted avg       0.92      0.80      0.84      4493

 
Random Forest using ADASYN(random_state=44) :
Training set:  1.0
Validation set:  0.8729134208769197
              precision    recall  f1-score   support

           0       0.96      0.90      0.93      4086
           1       0.37      0.60      0.46       407

    accuracy                           0.87      4493
   macro avg       0.67      0.75      0.69      4493
weighted avg       0.90      0.87      0.89      4493

 
SVC using ADASYN(random_state=44) :
Training set:  0.8511490735073174
Validation set:  0.8143779212107723
              precision    recall  f1-score   support

           0       0.97      0.82      0.89      4086
           1       0.30      0.79      0.43       407

    accuracy                           0.81      4493
   macro avg       0.64      0.80      0.66      4493
weighted avg       0.91      0.81      0.85      4493

 

Nous pouvons rapidement voir que les résultats sont très bons relativement aux modèles précédents : les taux de vrais positifs sont meilleurs. Les modèles arrivent maintenant mieux à prédire la classe minoritaire.

Le modèle des forêts aléatoires semble faire du surapprentissage : il y a une grosse différence de résultat entre le score de précision de l'entraînement et celui du test.

Nous affichons maintenant les courbes ROC associés aux trois modèles restants pour déterminer celui que nous allons choisir.

Le modèle que nous choisissons finalement est celui de la regression logistique avec la méthode ADASYN car il présente le meilleur AUC.

Optimisation des paramètres

Nous commençons par optimiser le type de pénalité à utiliser : LASSO (L1) ou Ridge (L2).

Log Reg l1 :
Minority Class Precision: 0.304
Minority Class Recall: 0.844
Minority Class F-beta: 0.447
Majority Class Precision: 0.981
Majority Class Recall: 0.807
Majority Class F-beta: 0.885
 
Log Reg l2 :
Minority Class Precision: 0.304
Minority Class Recall: 0.844
Minority Class F-beta: 0.447
Majority Class Precision: 0.981
Majority Class Recall: 0.807
Majority Class F-beta: 0.885
 

Il n'y a pas de différence entre les résultats, cependant, nous choisissons la pénalité L1 (Lasso) car nous allons faire de la sélection de variables par la suite.

Modèle final

Notre modèle final de régression logistique utilisant la méthode d'échantillonnage ADASYN a donné de bons résultats sur les données test. Il a correctement classé 85,9 % des rencontres mortelles. C'est-à-dire que sur les 509 cas de rencontres mortelles dans les données test 437 ont été correctement classés comme tels et 72 seulement ont été manqués.

Ceci une amélioration assez impressionnante par rapport au modèle de régression logistique de base qui avait un faible taux de vrais positifs de 28%.

Quant aux mesures de classification, nous pouvons noter que la précision pour la classe minoritaire reste assez faible, à 29,5 %. C'est-à-dire que pour les 1 480 codes postaux que le modèle prévoyait seulement 437 rencontres mortelles sont réellement arrivées. Cependant, les coûts associés à ces faux positifs (1 043) sont bien moins importants que les coûts associés aux faux négatifs (72) liés à l'absence d'identification d'un code postal ayant fait l'objet d'une rencontre mortelle avec la police en tant que tel, puisque cela signifie l'absence d'identification de la perte d'une vie humaine.

En pondérant l'importance du taux de vrais positifs comme étant 10 fois plus importante que la précision, le modèle a un score f-bêta de 84,3%.

D. Importance des variables

Dans cette partie, nous allons utiliser les coefficients de sortie de la régression logistique pour déterminer les variables les plus importantes pour pouvoir ensuite comprendre quels indicateurs socio-économiques rendent plus susceptible une localité à avoir des personnes de couleurs tuées par la police.

Comme nous avons choisi une pénalité LASSO, nous pouvons déjà faire une première sélection de variables : nous ne gardons que les variables qui ont un coefficient non nul.

Le modèle a sélectionné 29 variables sur les 45 de la base de données de départ.

Comme nous avons standardisé nos données nous allons regarder la valeur des coefficients pour trouver les variables les plus importantes. Nous allons garder les dix variables avec les coefficients les plus élevés (lorsque nous regardons en valeur absolue).

Les variables avec des barres orange rendent les rencontres mortelles plus probables alors que celles avec des barres grises les rendent moins probables.

Sur ce graphique nous retrouvons des résultats qui sont contre-intuitifs. En effet, les meurtres de personnes de couleur par la police sont plus susceptibles de se produire dans les codes postaux où les personnes de couleur connaissent la pauvreté et utilisent des services sociaux comme le SNAP et les bons d'alimentation ainsi que dans les codes postaux où un nombre plus élevé de la population globale est titulaire d'une licence ou d'un diplôme supérieur. Cette association ne suit pas nos premières intuitions.

Cela peut suggérer la possibilité de causes externes, non observées, au-delà des caractéristiques socio-économiques au niveau des codes postaux, telles que la dynamique raciale au sein des codes postaux. Cela pourrait inclure, peut-être, des conflits associés à une gentrification rapide où les nouveaux arrivants blancs aisés, en désaccord avec la communauté existante à faibles revenus, appellent la police pour régler ces conflits, ce qui augmente la probabilité de rencontres mortelles. Evidemment une analyse plus approfondie serait nécessaire.

Pour terminer nous voulions afficher une carte interactive des ZIP codes colorés par rapport à la variable réponse. Mais cela n'a pas été possible en raison de la trop faible puissance de nos ordinateurs pour afficher les données spatiales.

Nous avons tout de même récupéré une carte interactive déjà construite sur cet exemple. La couleur bleue représente les ZIP codes dans lesquels il n'y a jamais eu de personnes de couleurs tuées par la police. La couleur orange représente ceux où cela est déjà arrivé.

IV - Conclusion

Dans une première partie nous avons analysé de manière intuitive nos données que ce soit les données socio-économiques ou les données concernant le port d'armes des victimes.

Ensuite nous avons construit un modèle de classification en prenant en compte les classes déséquilibrées grâce à la méthode d'échantillonage ADASYN. Ce modèle nous a donné un très bon résultat avec un taux de vrais positifs de 0.859.

En étudiant l'importance des variables de notre modèle de classification nous nous sommes rendues compte que cette problématique est difficile à résoudre seulement statistiquement car il y a d'autres facteurs humains à prendre en compte.

V - Bibliographie